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一 种 改进 过 采样 算法 在 类 别 不 平衡 信用 评分 中 的 应 用 
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摘 要 : 针对 信贷 行业 信用 评分 业务 中 存在 的 样本 类 别 不 平衡 问题 ， 首 先 在 信用 评分 各 影响 因素 Fisher 比率 值 分 析 的 
基础 上 确定 主要 评判 指标 ; 而 后 以 基于 支持 度 的 过 采样 算法 (SDSMOTE) 为 样 例 合成 算法 ,支持 向 量 机 《SVM) 为 基 
预测 器 ，Boosting 算法 为 框架 构建 基于 FisherSDSMOTE-ESBoostSVM 的 类 别 不 平衡 信用 评分 预测 模型 ; 并 在 基 分 类 
器 训练 结束 后 引入 “淘汰 策略 ”"， 删 除 未 被 正确 分 类 的 合成 样 例 ， 重 新 生成 正 类 样 例 并 修正 样 例 权 重 ; 最 后 以 UCI 数 据 
库 中 德国 信用 数据 集 为 实验 样本 ，F-measure 值 和 G-mean 值 为 评价 指标 ， 对 比分 析 Fisher-SDSMOTE-ESBoostSVM 与 
其 他 集成 学 习 算 法 的 预测 结果 。 实 验 结果 表明 ，Fisher-SDSMOTE-ESBoostSVM 算法 应 用 到 信贷 行业 客户 信用 评分 预 
测 中 具有 可 行 性 和 适应 性 ， 且 预测 准确 率 较 高 ， 具 有 一 定 的 实际 应 用 价值 。 
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Application of Improved oversampling algorithm in class-imbalance credit scoring 


Shao Liangshan, Zhou Yu 
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Abstract: In view of class-imbalance in real credit scoring business of credit industry, firstly, determining the main evaluation 
indicators of credit scoring based on a comprehensive analysis of the influence factors’ Fisher ratio value. Then, choosing the 
SMOTE based on support degree (SDSMOTE) oversampling algorithm to synthesize new samples, SVM played as the base 
predictor and Boosting algorithm as the framework, a credit scoring prediction model which associated class-imbalance with 
Fisher-SDSMOTE-ESBoostSVM theory was proposed. Besides, the "elimination strategy" was introduced to delete the synthetic 
sample which was not classified accurately, after that synthesized the new positive class sample again and modified the sample 
weight. Finally, the German credit dataset in the UCI database was selected as the experimental dataset, and F-measure value 
and G-mean value as evaluation standard, comparing and analyzing the prediction result of Fisher-SDSMOTE-ESBoostSVM 
model and others ensemble learning algorithm. Experimental results show that the application of Fisher-SDSMOTE- 
ESBoostSVM algorithm to customer credit score prediction is feasible and applicable, and show a high level of accuracy, which 
proved that the algorithm have a certain practical application value. 
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问题 的 过 程 中 存在 一 些 不 容 忽 视 的 问题 , 如 前 期 筛选 使 得 “好 ?” 

客户 数量 较 “ 坏 ”客户 多 ， 将 “好 ”客户 错 分 为 “ 坏 ” 客 户 与 
言 用 评分 模型 是 一 种 以 客户 的 信用 历史 资料 为 依据 ， 为 保 将 “ 坏 ” 客 户 错 分 为 “好 ”客户 的 代价 是 不 同 的 ， 信 用 评分 模 
障 各 类 金融 行业 的 金融 安全 、 运 用 定量 统计 分 析 方 法 而 设 定 的 。 ”型 所 涉及 评判 指标 的 维度 较 高 、 数 据 之 间 存 在 见 余 等 。 因 此 构 
一 种 评估 或 预测 信用 风险 的 划 定 模型 。 近 年 来 信贷 行业 规模 和  ” 建 信用 评分 模型 是 一 种 类 别 不 平衡 、 数 据 间 匈 余 较 高 的 学 习 问 
涉及 领域 不 断 扩大 使 得 信用 评分 问题 日 益 突出 ,如何 建立 高 效 、 ” 题 。 目 前 ,采样 和 代价 敏感 学 习 是 处 理 类 不 平衡 问题 的 常用 方 
可 靠 的 信用 评分 模型 显得 尤为 重要 。 法 。 代 价 敏感 学 习 要 求 明确 错 分 的 代价 ， 而 信贷 业务 中 较 难 准 
前 ， 已 有 一 些 学 者 将 基于 统计 和 机 器 学 习 的 方法 应 用 到 确 评 估 错 分 的 代价 ， 在 实际 问题 中 更 多 地 采用 采样 的 方法 。 采 
言 用 评分 模型 构建 中 ， 如 逻辑 回归 四、 支持 向 量 机 中 、 提 升 树 申 ”” 样 方法 分 为 过 采样 和 欠 采 样 方法 两 种 ， 随 机 欠 采 样 主要 是 随机 
等 方法 ， 并 取得 了 较 好 的 效果 。 但 应 用 信用 评分 模型 解决 实际 ”删除 负 类 (多数 类 ) 中 部 分 样 例 ， 对 正 类 (少数 类 ) 没有 采取 
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任何 操作 ，Herrera 外 提出 一 种 基于 K-nearest neighbor 的 有 指 
导 的 欠 采 样 方法 ， 通 过 保留 正 类 附近 的 负 类 样本 有 效 避 免 关 键 
信息 丢失 ;Blake 等 人 中 提出 Balance Cascade 算法 ， 对 负 类 样 
例 不 重复 采样 、 固 定 正 类 样 例 ， 最 终 建立 多 个 子 分 类 器 形成 联 
合 分 类 器 。 但 欠 采 样 方法 在 删除 负 类 样 例 的 过 程 中 ， 难 免 会 删 
除 部 分 含有 效 信息 的 负 类 样 例 。 随 机 过 采样 通过 随机 复制 正 类 
样 例 改 善 了 类 间 不 平衡 度 ， 但 易 出 现 过 拟 合 问 题 ， 对 此 学 者 们 
提出 了 不 同 的 改进 方法 ，Chawla 等 人 9 提出 一 种 新 的 过 采样 方 
通过 在 
正 类 样 例 及 其 临近 正 类 样 例 连 线 上 随机 选取 一 点 合成 正 类 样 例 
来 解决 数据 失衡 问题 ， Han 等 人 中 在 SMOTE 算法 的 基础 上 提 
出 了 Borderline -SMOTE 算法 ， 通 过 在 边缘 区 域内 进行 插值 使 
新 生成 样本 更 加 有 效 ; Nakamura 等 人 加 提出 基于 密度 的 
SMOTE 改进 算法 ， 根 据 正 类 样本 的 分 类 密度 形成 聚 类 簇 来 控 
制 新 样本 的 合成 。 

在 现 有 研究 的 基础 上 ， 本 文 提出 一 种 基于 支持 度 的 改进 过 
采样 SMOTE 算法 一 SDSMOTE(SMOTE based on support degree， 
SDSMOTE ) 来 处 理 客户 信用 评分 问题 中 类 别 不 平衡 问题 , 而 后 
以 Boosting 集成 学 习 方 法 为 框架 , SVM 为 基 学 习 器 , 迭代 过 程 
中 引入 “淘汰 策略 ”(elimination strategy)， 删 除 被 基 分 类 器 错 
误 分 类 的 正 类 合成 样本 来 确保 合成 样本 的 质量 ， 此 外 ， 鉴 于 信 
用 评分 问题 涉及 的 评判 指标 维 数 较 高 ， 在 合成 正 类 样 例 前 根据 
各 指标 Fisher 比率 值 来 筛选 指标 。 


1 ， 理论 分 析 


1.1 Boost-SVM 基本 原理 

支持 向 量 机 (support vector machine，SVM) [10 核心 思想 
是 建立 一 个 分 类 超 平 面 作为 决策 曲面 ， 最 大 化 正 负 类 之 间 的 隔 
离 边 缘 。SVM 首先 设 定 训练 集 T ={ x,y),…,(%,y)}， 
EX 为 特征 向 量 ，y, e 了 ={+1,-]) (i=1,2,…,1) ; 选取 适当 的 
核 函 数 K(x,x,) 和 参数 C ， 构 造 求解 最 优化 问题 : 


A 


SMOTE(synthetic minority over-sampling technique), 


js 


1 jl ¥ 
min322 KG) 一 2 oj 
a i=1 j=l j=l 


0<w <C， 据 此 计算 阅 值 六 =y 一 ya KG x) ， 构 造 
决策 函数 : 

f(x) = sen( 六 wyKGn aa) +b’)。 (2) 

Boosting 算法 与 SVM 有 一 个 共同 点 ， 即 在 学 习 过 程 中 注 


重 “ 最 富 信 息 ” 的 样本 点 (4。Boosting 算法 在 初次 训练 时 赋 
予 每 个 样本 相同 的 概率 ， 进 入 迭代 后 ， 对 分 类 错误 的 样本 加 大 
权重 使 得 在 下 一 次 迭代 中 可 以 更 加 关注 这 些 点 。Boost-SVM 算 
法 拟 将 支持 向 量 机 作为 集成 学 习 机 框架 的 学 习 器 ， 即 以 支持 向 
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吉 


机 为 Boosting 算法 的 基 分 类 器 ， 进 


步 提高 学 习 机 的 泛 化 能 


- 


1.2 ”改进 的 SMOTE 算法 

SMOTE 03449 基 本 思想 是 通过 线性 内 插 法 在 的 正 
类 样本 中 合成 新 的 正 类 样本 ， 其 可 有 效 避 免 过 度 拟 合 问题 ， 但 
其 无 法 指导 如 何 选取 正 类 样本 及 合成 新 样本 。 针 对 以 上 不 足 ， 
本 文 提 出 一 种 基于 支持 度 的 SDSMOTE 算法 。SDSMOTE 算法 
通过 计算 各 正 类 样本 的 支持 度 来 确定 边界 样本 ， 可 以 实现 有 选 
择 、 有 差别 地 合成 边界 样本 的 目标 ， 提 高 合成 样本 的 质量 。 具 
体 方法 如 下 : 

a) 使 用 Tomek links 数据 
行 清除 。 

b) 设 去 除 噪声 后 数据 集中 正 类 样本 数 为 m ， 负 类 样本 数 为 
n ， 样 本 维 数 为 a 。 随 机 选取 一 个 正 类 样本 X = (x x,,…,,) 
(i=1,2,…,m) ， 利 用 式 〈3 ) 计算 到 X 到 每 一 个 负 类 样本 
yj(j=1,2,…,n) 之 间 的 欧式 距离 和 。 


个 临近 


了 由 
Dea 


里 技术 对 样本 数据 集中 噪声 点 进 


ya) 


yy fret (ny 


9 计算 所 有 8 加 和 ， 并 以 此 根据 式 (4) 计算 得 到 正 负 类 样 
本 之 间 的 平均 距离 : 
-Ss fmxn (4) 


d) 将 5 设置 为 距离 参数 ， 选 取 一 个 正 类 样本 x 为 圆心 并 
以 距离 参数 为 半径 画 一 个 圆 ， 计 算 每 个 圆 区 域内 负 类 样本 个 数 
作为 正 类 样本 的 支持 度 上 ， 支 持 度 较 大 意味 着 正 类 样本 X 被 


分 配 一 个 较 高 的 选择 可 能 性 值 忆 = 大 /六 上 ， 相反 , 样本 会 被 分 


配 一 个 较 小 pp。 

9) 设 定 需要 合成 的 正 类 样本 数 7 为 数据 集中 正 类 样本 与 负 
类 样本 的 差 值 ， 根 据 正 类 样本 的 忆 值 ， 可 以 得 到 以 每 个 正 类 样 
本 附近 需要 合成 的 新 样本 个 数 7=P.L， 设 需要 合成 的 正 类 样 


7 


本 为 X，={x xx ， 对 被 选 的 正 类 样本 使 用 改进 的 
关 值 公式 ， 

X,,, = X; +rand(0,1) x (X,,. —X,) (5) 
其 中 ，X， 为 以 X, 为 圆心 的 圆 中 距离 X 最 远 的 正 类 样本 点 ， 


添加 新 合成 的 样本 到 数据 集中 参与 训练 和 测试 。 
1.3 基于 Fisher 准则 的 特征 选择 

Fisher 准则 [05 是 一 种 基于 距离 的 特征 选择 方法 之 一 ， 其 基 
本 思想 是 鉴别 性 能 较 强 的 特征 ， 即 表现 为 类 内 距离 尽 可 能 小 ， 
类 间距 离 尽 可 能 大 的 特征 。 采 用 单个 特征 的 Fisher 比值 作为 准 
则 ， 并 以 此 对 特征 进行 排序 ， 可 以 选 出 鉴别 性 能 较 强 的 特征 ， 
从 而 达到 降 维 的 目的 。 在 特征 选择 过 程 中 ， 设 定 存在 训练 样本 


{5571),(%, y2)," 


(5 )} ? 其 中 n 为 样本 数量 ， Xi eR* > 为 


-1 表 


特征 向 量 的 维 数 ， ,={-L1} 为 类 别 标号 ，1 表示 正 类 ， 
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示 负 类 。 每 一 类 中 包含 n, 1 个 样本 ， xX, mY , m® 分 别 为 第 
i 类 样本 Xx， 第 ;类 样本 的 均值 ， 所 有 样本 的 均值 在 第 维 上 的 


取 值 。 用 SW 和 8w 表示 该 维特 征 在 训练 样本 集 上 的 类 间 方 差 
和 类 内 方差 。 


2 


入 
SW => (nt —m®) (6) 
i=l 
2 2 1 
Sh = > Vm?) =—(6 +62) 0 
i=l XE n 


则 单个 特征 的 Fisher 准则 比值 可 以 表示 为 

Ti = SH /Ss (8) 

将 J 称 为 特征 的 Fisher 比率 值 , 某 维特 征 在 训练 集 上 的 

Fisher 比率 值 越 大 ， 说 明 该 维特 征 的 类 别 区 分 度 越 好 ， 包 含 越 
多 的 鉴别 信息 ， 噪 声 特征 的 Js 值 趋 近 于 0。 


2 ”仿真 实验 及 性 能 分 析 


2.1 Fisher-SDSMOTE-ESBoostSVM 算法 实现 
本 文 首先 根据 Fisher 比率 值 对 各 评判 指标 进行 选择 ， 而 后 
借助 过 采样 SDSMOTE 算法 合成 正 类 样本 ， 分 类 算法 选取 
Boosting 算法 为 框架 并 以 SVM 模型 为 基 分 类 器 , 同时 引入 “ 淘 
汰 策略 ”删除 被 基 分 类 器 错误 分 类 的 合成 正 类 样 例 ， 最 终 构 建 
基于 Fisher-SDSMOTE-ESBoostSVM 的 类 不 平衡 数据 集 分 类 模 
型 。 其 具体 实现 过 程 如 下 : 

a) 输入 样本 数据 Z， 借 助 Fisher 准则 方法 在 样本 集中 进行 
权重 计算 ， 并 输出 特征 权重 向 量 W。 根 据 特征 权重 值 对 属性 进 
行 筛选 ， 构 成 降 维 后 新 的 样本 集 S。 

b) 输入 新 样本 集 , 应 用 SDSMOTE 算法 
将 合成 样本 添加 到 样本 集 S 中 。 

c) 对 新 样本 集中 的 每 个 样 例 设置 相同 的 初始 权重 值 。 

d) 调用 SVM 学 习 算 法 ， 形 成 基 分 类 器 ,借助 Boosting 权 
重 更 新 过 程 使 下 一 次 迭代 时 ， 被 当前 基 分 类 器 错 分 的 样 例 可 以 
得 到 更 多 关注 ; 同时 引入 “淘汰 策略 ” 删除 错误 合成 的 正 类 样 
on yn 

e) 根据 正 类 样 例 减 少 个 数 重新 执行 SDSMOTE 算法 合成 
新 样本 ， red 


/ 


合成 少数 类 样本 。 


计算 公式 如 下 : 
工 XEesS, 
w=1 O) 
w(x, xg5, 


nn, 


其 中 :ww 、wxe 分 别 表示 第 + 次 迭代 时 ,合成 样 例 和 原始 样 例 
权 值 ，n 为 训练 样本 个 数 ，m 为 淘汰 的 正 类 合成 样本 个 数 ，5， 
为 第 1 次 迭代 重新 合成 的 正 类 样 例 集合 。 

f) 重复 执行 4) e) 步 ， 直 到 达到 迁 代 次 数 六 ， 计 算 各 基 分 
类 器 权重 ， 最 后 组 合 基 分 类 器 形成 强 分 类 器 。 具 体 流程 如 图 1 
所 示 。 
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各 不 权 信 本 RN 
ee 


随机 组 合 训 合 训 练 样 


是 ”| 更 新 预测 器 权重 ， 构 
建 强 预测 器 


| 计算 需 重新 合成 的 
正 类 梓 本 数 


输出 计算 结果 


删除 该 合成 的 
正 


:类 样本 
不 


攻取 | x 
的 训练 集 的 训练 繁 


种 权重 赴 0 而 | 
训 


(CC 算 法 结束 ) 


| 六 


图 1 算法 实现 流程 


2.2 评价 指标 

单纯 地 将 准确 率 (accuracy) 作为 模型 分 类 效果 的 评价 机 制 
对 不 平衡 数据 来 说 意义 不 大 ， 不 少 学 者 针对 不 平衡 数据 预测 提 
出 了 一 些 更 加 合理 的 评价 机 制 09， 如 特异 性 specificity))、 敏 
感性 (sensitivity)、 正 类 的 查 准 率 (precision)、 几 何平 均值 (G- 
mean)、 正 类 的 F-measure 值 等 。 两 类 别 情况 下 ， 正 类 和 负 类 的 
预测 情况 可 具体 分 为 TP 《实际 正 类 ， 预 测 正 类 )、FP (实际 负 
类 ， 预 测 正 类 )、FN( 实 际 负 类 ， 预 测 正 类 )、TN( 实 际 负 类 ， 预 
测 负 类 ) 四 种 。 定 义 各 度量 计算 公式 为 


TN 
特异 性 Specificity = 
pecificiy = yi EP 
敏感 性 sensitivity = 中 
TP+FN 


正 类 查 准 率 pyecision = = 人 
TP+PP 


几何 平均 值 G-mean= VSensitivity. Specificity 


(+P?)Sensitivity: Precision 


正 类 F-measure FF -measure = 


BSensitivity + Precision 
在 仅 考 虑 模型 正 类 预测 性 能 的 情况 下 ,敏感 性 
正 类 查 准 率 precision 是 相对 重要 的 度量 ， 正 类 F-measure 值 是 
敏感 性 和 查 准 率 的 调和 均值 , 其 计算 结果 接近 两 者 中 的 较 小 者 ， 
故 较 大 的 F-measure 值 对 应 的 sensitivity 和 precision 较 大 ， 其 
中 6 通常 取 值 为 1。 需 要 同时 考虑 模型 对 两 类 的 预测 性 能 ， 即 
希望 TP 和 TN 都 较 大 时 , 可 以 使 用 G-mean 衡量 模型 在 两 个 类 
别 上 的 平均 性 能 。 因 此 , 本 文选 取 正 类 F-measure 和 G-mean 作 
为 模型 分 类 效果 的 评价 指标 。 
2.3 ”算法 有 效 性 验证 
为 测试 本 文 所 建 模型 对 类 不 平衡 数据 集 的 分 类 效果 ， 选 取 
了 来 自 UCI 数据 库 和 KEEL 数据 库 中 5 组 不 同 的 数据 集 进行 实 
验 , 各 数据 集 的 特征 信息 如 表 1 所 示 。 实验 过 程 中 采用 10 折 交 
叉 验证 (10-fold cross-validation ) 的 测试 方法 ,将 数据 集 等 分 为 
10 份 ， 轮 流 选 择 其 中 9 份 作 为 训练 集 ，1 份 作为 测试 集 。 对 10 
次 实验 结果 中 各 度量 值 取 均 值 作 为 模型 的 最 终 评价 结果 。 经 反 
复 测试 实验 参数 设置 为 : Boosting 迭代 次 数 为 500 次 ， 基 分 类 
器 分 数 为 20 个 ，SVM 中 核 函数 选择 径 向 基 (RBF) 函数 ， 核 
参数 y 取 值 为 2，C 取 值 为 100。 
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录用 入 二 

表 1 不 平衡 数据 集 特征 与 分 布 分 析 表 2 可 以 看 出 ， 经 特征 提取 的 两 类 算法 和 不 经 过 特征 

数据 集 寺 征 。” 正 类 负 类 不 平衡 比 约 简 特征 提取 的 两 类 算法 的 比较 中 ， 显 然 经 过 特征 提取 的 算法 分 类 效果 

Pera 8 5 S00 3 7 较 好 ， 说 明 Fisher 算法 有 效 地 提取 出 了 关键 属性 ， 剔 除了 不 相 
Ionosphere 34 5 5 0.563 29 关 或 元 余 的 特征 ， 达 到 了 提高 模型 精确 度 ， 减 少 运 行 时 间 的 

本 县 i ce 31 的 。 而 Fisher-SDSMOTE-BoostSVM 的 分 类 效果 要 远 好 于 

Wine 13 48 178 0.266 11 Fisher-SMOTE-BoostSVM 算法 , 说 明基 于 SDSMOTE 算法 通过 


ee 20 1 0 号 有 选择 、 有 差别 地 合成 边界 样本 目标 ， 在 一 定 程度 上 有 效 避 免 
了 SMOTE 合成 新 样本 的 盲目 性 ， 提 高 了 正 类 合成 样本 的 质量 
为 同时 验证 所 提出 的 Fisher-SDSMOTE-ESBoostSVM 算法 “进而 提高 正 类 样本 的 分 类 准确 率 。Fisher SDSMOTE- 
中 SDSMOTE 的 性 能 、 特 征 提 取 及 “淘汰 策略 ”的 有 效 性 。 实 ”ESBoostSVM 算法 分 类 效果 更 优 于 Fisher- SDSMOTE- 
验 男 外 分 别 测试 不 经 特征 提取 使 用 的 SMOTE- BoostSVM、 BoostSVM 算法 具有 大 幅度 提升 ， 表 明 结 合 “淘汰 策略 ”的 
SDSMOTE-BoostSVM 算法 ， 采 用 特征 提取 的 Fisher-SMOTE- ”SDSMOTE-BoostSYM 算法 具有 更 好 的 分 类 性 能 。 综 合 以 上 实 
BoostSVM 、Fisher-SDSMOTE-BoostSVM 四 种 算法 所 得 出 的 伶 结果 表明 ， 本 文 所 构建 的 Fisher- SDSMOTE-ESBoostSVM 分 
specificity 、sensitivity、F-measure 和 G- mean 值 。 表 1 最 后 一 类 器 模型 ， 在 不 同 空间 结构 以 及 不 同 维度 的 不 平衡 数据 集 下 拥 
栏 中 列 出 了 Fisher 准则 提取 的 特征 数 情况 。 表 2 为 以 上 五 种 算 ”有 更 强 的 正 负 类 识别 率 、 更 好 的 综合 性 能 。 
法 的 各 评价 指标 值 的 对 比 情况 。 
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表 2 5 种 不 平衡 数据 集 的 评价 机 制 数值 


数据 集 算法 Specificity Sensitivity G-mean F-measure 
SMOTE-BoostSVM 0.704 + 0.43 0.559 + 0.133 0.627 + 0.036 0.642 + 0.042 
Fisher-SMOTE-BoostSVM 0.778 + 0.21 0.611 + 0.104 0.687 + 0.030 0.698 + 0.035 
Pima SDSMOTE- BoostSVM 0.740 + 0.52 0.724 + 0.039 0.732 + 0.025 0.764 + 0.037 
Fisher-SDSMOTE-BoostSVM 0. 81 + 0.034 0.798 + 0.24 0.804 + 0.013 0.823 + 0.028 
本 文 算法 0.959 + 0.017 0.893 + 0.016 0.925 + 0.009 0.894 + 0.006 
SMOTE- BoostSVM 0.741 + 0.149 0.55 + 0.109 0.638 + 0.059 0.658 + 0.102 
Fisher-SMOTE- BoostSVM 0.765 + 0.103 0.625 + 0.082 0.691 + 0.083 0.735 + 0.087 
Ionosphere SDSMOTE- BoostSVM 0.79 + 0.078 0.692 + 0.091 0.739 + 0.071 0.781 + 0.074 
Fisher-SDSMOTE- BoostSVM 0.823 + 0.066 0.796 + 0.054 0.809 + 0.052 0.847 + 0.067 
本 文 算 法 0.881 + 0.050 0.962 + 0.031 0.921 + 0.039 0.884 + 0.044 
SMOTE- BoostSVM 0.692 + 0.119 0.604 + 0.086 0.647 + 0.087 0.654 + 0.074 
Fisher-SMOTE- BoostSVM 0.797 + 0.082 0.682 + 0.073 0.737 + 0.065 0.773 + 0.053 
wpbe SDSMOTE- BoostSVM 0.826 + 0.082 0.753 + 0.076 0.788 + 0.076 0.766 + 0.062 
Fisher-SDSMOTE- BoostSVM 0.857 + 0.073 0.785 + 0.062 0.820 + 0.062 0.833 + 0.047 
本 文 算法 0.907 + 0.056 0.894 + 0.044 0.901 + 0.037 0.880 + 0.021 
SMOTE- BoostSVM 0.692 + 0.111 0.604 + 0.097 0.647 + 0.089 0.647 + 0.102 
Wine Fisher-SMOTE- BoostSVM 0.763 + 0.089 0.745 + 0.064 0.754 + 0.076 0.742 + 0.082 
(3vs other) SDSMOTE- BoostSVM 0.802 + 0.091 0.812 + 0.063 0.807 + 0.065 0.809 + 0.073 
Fisher-SDSMOTE- BoostSVM 0.843 + 0.074 0.832 + 0.045 0.837 + 0.051 0.855 + 0.057 
本 文 算法 0.923 + 0.032 0.909 + 0.036 0.916 + 0.033 0.925 + 0.028 
SMOTE- BoostSVM 0.702 + 0.109 0.572 + 0.098 0.634 + 0.122 0.658 + 0.097 
Fisher-SMOTE- BoostSVM 0.786 + 0.082 0.595 + 0.076 0.684 + 0.082 0.736 + 0.067 
Sonar SDSMOTE- BoostSVM 0.825 + 0.087 0.727 + 0.069 0.774 + 0.065 0.798 + 0.059 
Fisher-SDSMOTE-BoostSVM 0.866 + 0.056 0.776 + 0.102 0.820 + 0.058 0.845 + 0.065 
本 文 算法 0.947 + 0.047 0.891 + 0.049 0.919 + 0.043 0.914 + 0.023 
2.4 Fisher-SDSMOTE-ESBoosting 算法 鲁 棒 性 对 比分 析 性 评价 机 制 对 以 上 5 种 算法 的 鲁 棒 性 进行 对 比分 析 , 将 算法 m 


为 检验 所 构建 模型 的 鲁 棒 性 ， 采 用 参考 文献 [17] 中 的 鲁 棒 ” 在 某 一 特定 数据 集 上 的 相对 性 能 用 该 算法 在 求解 问题 时 得 到 的 
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Adjusted Rand Index 的 值 与 最 大 Adjusted Rand Index 值 的 比值 
表示 。 具 体 计 算 方法 为 

b ,= R,/max(R,) 

(10) 

在 某 个 数据 集 上 表现 最 好 的 算法 yr 对 应 的 性 能 5b .为 1， 
而 其 他 算法 的 相对 性 能 5b ,小 于 1， 且 5b. 值 越 大 ， 相 应 算法 m 
在 所 有 算法 中 的 相对 性 能 越 好 。 因 此 ， 本 文选 取 各 算法 在 所 有 
数据 集 上 的 5b, 值 的 总 和 来 评价 其 鲁 棒 性 ， 总 和 值 越 大 算法 的 
和 鲁 棒 性 越 强 。 同 样 选择 以 上 5 个 数据 集 为 测试 数据 ， 将 正 类 与 
负 类 样 例 按 1: 10 的 比例 进行 选取 , 并 借助 10 折 交 叉 验 证 法 进 
行 测试 。 各 算法 参数 设置 同上 。 图 2 为 5 种 算法 的 G-mean 评 
价 指标 的 鲁 棒 性 对 比 ( 限 于 篇 幅 对 各 算法 进行 缩写 )。 


m=1,2,.…,k 
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平衡 数据 下 G-mean 的 Adjusted Rand Index 鲁 棒 性 能 比较 


图 2 可 知 ， 本 文 所 提 的 Fisher-SDSMOTE ESBoostSVM 
算法 对 各 数据 集 的 b 均 为 1， 且 具有 最 高 的 总 和 值 ， 表 明 所 提 
算法 对 不 同 空间 结构 及 不 同 维度 的 数据 不 均衡 分 类 问题 均 表 现 
出 良好 的 性 能 ， 在 对 比 的 其 他 四 种 算法 中 有 具有 最 好 的 鲁 棒 性 。 
这 是 由 于 本 文 算法 不 仅 考虑 了 样本 的 属性 特性 ， 利 用 改进 的 
SDSMOTE 算法 使 过 采样 更 具 针对 性 ， 而 引入 的 “淘汰 策略 ” 
对 合成 的 正 类 样 例 进行 二 次 筛选 ， 提 高 了 合成 样本 的 质量 ， 进 
而 提高 了 模型 的 分 类 准确 率 。 


3 ”算法 在 信用 评分 中 的 应 用 


3.1 数据 准备 和 预 处 理 

本 文选 用 UCI 数据 集中 German 公开 数据 集 ， 该 数据 集中 
包含 1 000 条 贷款 申请 记录 , 其 中 700 条 为 信誉 良好 的 “good” 
客户 ，300 条 存在 违约 情况 的 “bad” 客 户 。 数 据 集 中 每 条 记录 
对 应 20 个 变量 描述 其 特征 属性 ， 其 中 定量 数据 类 型 定 属 为 13 
个 ， 包 括 现 有 账户 状况 、 信 用 记录 、 信 和 贷 上 目的、 储蓄 账户 、 当 


Ej 


C | \ | 
邵 良 杉 ， 等 : 一 种 改进 过 采样 算法 在 类 别 不 平衡 信用 评分 中 的 应 用 


1i=12N ; y 代表 客户 贷款 偿还 情况 ， 
T={ily,=lLieN,(x,y)eS} 表示 信用 良好 的 客户 ， 
J ={i|y, = 一 bie NN,(x,,y,)eS} 表示 信用 较 差 的 客户 。 因 此 ， 信 
评分 问题 可 以 简单 地 描述 成 是 否 可 以 通过 客户 的 特征 属性 
x 而 准确 地 将 他 们 分 成 优质 与 劣质 客户 03。 
SVM 为 基于 距离 度量 的 分 类 模型 , 其 对 数量 间 数 量 级 差别 
比较 敏感 。 为 避免 数量 级 差别 对 分 类 结果 的 影响 ， 在 模型 训练 
实验 前 使 用 最 大 一 最 小 规范 化 方法 对 数据 进行 规范 化 。 


Xi 一 Amin 


Sg 


X= 


max 本 min 


3.2 ”实验 结果 及 性 能 分 析 

为 验证 信用 评分 问题 中 各 评判 指标 的 Fisher 比率 值 对 分 类 
器 的 影响 ， 首 先 对 数据 进行 预 处 理 ， 而 后 按照 式 (8) 计算 出 各 
特征 的 Fisher 比率 值 ， 并 对 这 些 特征 以 此 进行 降序 排列 ， 最 后 
依次 选取 各 个 特征 建立 分 类 模型 ， 计 算 模 型 的 G-mean 值 和 下 - 
measure 值 。 测 试 结果 如 图 3 所 示 。 


0 2 4 6 8 10 12 14 16 18 20 
Fisher 分 由 大 到 小 排序 的 特征 序列 


F-measure 


10 12 14 16 
Fisher 分 由 大 到 小 排序 的 特征 序列 


0 2 4 6 8 18.. 20 


图 3 按 Fisher 分 排序 的 特征 分 类 模型 测试 结果 


图 3 可 知 ， 随 着 Fisher 比率 值 的 降低 ， 相 应 特征 对 分 类 
的 影响 逐渐 减 小 ， 按 照 Fisher 比率 值 大 小 排序 后 前 18 个 特征 
对 模型 分 类 效果 有 较 大 影响 , 而 其 余 特 征 对 分 类 结果 影响 较 小 ， 
可 以 忽略 不 计 ， 故 将 其 视 为 噪声 特征 删除 。 

实验 过 程 以 MATLAB 2012b 为 平台 , 采用 十 折 交 叉 验 证 将 
数据 集 平均 分 成 10 份 ， 训 练 数据 集 和 测试 数据 集 的 比例 为 1: 
9， 每 份 数据 集 依次 作为 训练 数据 集 。 各 类 算法 的 设置 亦 同 上 。 
为 避免 机 器 学 习 不 稳定 性 带 来 的 随机 影响 , 每 折 运 行 10 次 , 实 
验 次 数 共 100 次 ， 最 后 得 到 每 个 评价 指标 的 均值 。 同 时 将 构建 
模型 运行 效果 与 SMOTE-BoostSVM、FisherSMOTE-BoostSVM、 


前 工龄 、 婚 姻 状况 、 其 他 应 收 账 款 、 抵 押 类 型 、 其 他 分 期 付款 
计划 、 住 房 情况 、 工 作 状 态 、 电 话 状 态 、 是 否 为 外 籍 工 作者 ; 
7 种 数值 属性 包括 持续 时 间 ， 借 贷 额 度 、 分 期 付款 金额 占 可 支 
配 收入 比例 ， 现 居住 地 居住 时 间 ， 年 龄 、 未 清 还 贷款 金额 ， 购 
养 人 数 。 

令 义 =(x,x,…%) 代表 信用 评分 参考 信息 变量 , 每 个 样 例 
可 表示 为 x =(x,xs,…,%,) ， 全 部 样本 可 表示 为 5S ={ (x,y,)}， 


SDSMOTE-BoostSVM、Fisher- SDSMOTE-BoostSVM 模型 的 实 
验 结果 对 比 ， 各 评价 指标 计算 结果 如 图 4 所 示 。 

对 比 五 种 算法 的 实验 结果 可 以 看 出 ， 算 法 总 体 分 类 准确 率 
从 大 到 小 的 排名 依次 为 FisherSDSMOTE-ESBoostSVM、Fisher- 
SDSMOTE-BoostSVM、SDSMOTE-BoostSVM、Fisher -SMOTE- 
BoostSVM、SMOTE-BoostSVM, 算法 整体 分 类 准确 率 随 正 类 样 
本 分 类 准确 率 的 提高 得 到 明显 改进 .另外 ， 从 图 3 中 可 以 看 出 ， 
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本 文 提出 的 Fisher-SDSMOTE- ESBoostSVM 算法 在 整体 分 类 准 算法 分 类 效果 较 优 与 其 他 三 种 算法 ， 说 明 对 过 采样 算法 进行 改 
确 率 上 有 较 大 提高 ， 说 明 本 文 所 提出 的 改进 过 采样 算法 及 “ 淘 。 进 并 结合 “淘汰 策略 ”确保 合成 样本 的 正确 性 使 分 类 器 对 少数 
汰 策略 ”通过 产生 新 的 质量 较 高 的 正 类 样本 平衡 训练 信息 ， 较 。” 类 样本 具有 了 更 强 的 学 习 能 力 ， 可 以 为 类 别 不 平衡 信用 评分 问 
好 地 解决 了 客户 信用 评分 中 的 类 别 不 平衡 问题 。 综 上 实验 结果 ” 题 提供 一 定 的 参考 作用 。 
表明 ， 相 比 其 他 算法 ， 本 文 提出 的 Fisher-SDSMOTE- 
ESBoostSVM 算法 在 处 理 信用 评分 中 类 不 平衡 问题 时 效果 较 好 ， EEC 
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三 

04 1s-SDSMOTE:BodstSVM:: 

5 ishierRUS-AdaboostSVM | 


值 


指标 


G-Mean F-Measure Accuracy 
评价 指标 
图 4 五 种 模型 各 指标 值 对 比 
3.3 与 其 他 算法 的 对 比 
为 进一步 测试 所 构建 算法 的 性 能 ， 本 文 将 其 与 KM- 
SMOTE-RF、Fisher-RUS-AdaboostSVM，Relief-CSCART 三 种 


02 RejieFCS-CART 


一 KMiBorderlihe-SMOT 


0 
0 0.2 0.4 0.6 0.8 1 
Specificity 
图 5 ROC 曲线 对 比 
4 ”结束 语 


本 文 针 对 信贷 行业 中 客户 信用 评分 业务 存在 的 类 别 不 平衡 
问题 , 首先 采用 Fisher 准则 对 信用 评分 中 各 评判 指标 进行 选择 ， 


集成 分 类 算法 进行 了 对 比 。 三 种 集成 分 类 算法 的 集成 策略 见 表 
3。10 次 实验 结束 后 得 到 各 评价 指标 均值 如 表 4 所 示 ， 各 算法 


合理 降低 了 数据 维度 ， 减 小 了 数据 间 信 息 元 余 ;并 提出 一 种 基 
于 支持 度 的 SDSMOTE 过 采样 算法 指导 正 类 样本 的 合成 ， 有 效 
避免 了 传统 SMOTE 算法 合成 样本 的 盲目 性 ， 使 过 采样 更 具 针 
对 性 ， 进 而 提高 正 类 样本 的 分 类 效率 。 以 Boosting 集成 学 习 算 


让 


SVM 为 基 分 类 器 ， 引 入 “淘汰 策 


对 应 的 ROC 曲线 如 图 5 所 示 。 
表 3 三 种 集成 算法 的 集成 策略 描述 
算法 策略 
K-Mean 聚 类 + 基于 边界 的 过 采样 算法 SMOTE+ 


KM-Borderline- 


SMOTE-RF 


随机 森林 集成 学 习 


Fisher-RUS- 
AdaboostSVM 


Relief-CSCART 


和 法 
Fisher 特征 提取 方法 + 欠 采 样 算法 RUS+ 
Adaboost +SVM 基 分 类 器 
Relief 特征 选择 方法 + 代价 敏感 决策 树 


表 4 本 文 算法 与 其 他 三 种 集成 学 习 算 法 对 比 情况 


算法 G-mean F-measure 
KM-Borderline-SMOTE-RF 0.823 0.798 
RUS-AdaboostSVM 0.882 0.845 
Relief-CS-CART 0.895 0.873 
Fisher-SDSMOTE-ESBoostSVM 0.923 0.896 


从 区 


5 可 以 看 出 ， 


四 种 算法 对 信用 评分 预测 的 表现 是 相当 


的 ，Fisher-RUS-AdaboostSVM 、Relief-CS-CART 的 分 类 效果 相 


差 不 大 ， 较 优 于 KM-SMOTE-RF 算法 , 说 明了 特 和 
her-RUS-AdaboostSVM 算 


不 平衡 数据 分 类 问题 上 的 有 效 性 ; Fis 


法 更 优 于 Relief-CS-CART 算法 , 表明 


F 选 择 在 处 理 


对 于 信用 评分 分 类 预测 问 


ey 


题 ， 从 数据 层面 处 


里 不 平衡 问题 相对 


与 从 算法 层 


四 处 


不 平衡 


问题 更 具 优 势 ， 而 本 文 提出 的 Fisher-SDSMOTE-ESBoostSVM 


法 为 框架 ， 各 ”， 删 除 基 分 类 
器 中 分 类 错误 的 正 类 样本 ， 重 新 合成 并 更 新 样 例 权重 ， 提 高 了 
合成 样本 的 质量 。 

实验 结果 表明 ， 本 文 所 提出 的 算法 相 比 其 他 集成 算法 具有 
较 好 的 F-measure 和 G-mean 值 , 应 用 到 信贷 行业 客户 
预测 中 具有 可 行 性 和 适用 性 。 本 文 仅 将 客户 分 为 信用 好 和 信用 
差 客 户 ， 如 何 对 客户 信用 等 级 进行 更 详细 的 划分 是 今后 
重点 。 
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